11 research outputs found

    Evaluation of speech unit modelling for HMM-based speech synthesis for Arabic

    Get PDF
    International audienceThis paper investigates the use of hidden Markov models (HMM) for Modern Standard Arabic speech synthesis. HMM-basedspeech synthesis systems require a description of each speech unit with a set of contextual features that specifies phonetic,phonological and linguistic aspects. To apply this method to Arabic language, a study of its particularities was conductedto extract suitable contextual features. Two phenomena are highlighted: vowel quantity and gemination. This work focuseson how to model geminated consonants (resp. long vowels), either considering them as fully-fledged phonemes or as thesame phonemes as their simple (resp. short) counterparts but with a different duration. Four modelling approaches have beenproposed for this purpose. Results of subjective and objective evaluations show that there is no important difference betweendifferentiating modelling units associated to geminated consonants (resp. long vowels) from modelling units associated tosimple consonants (resp. short vowels) and merging them as long as gemination and vowel quantity information is includedin the set of features

    Duration modeling using DNN for Arabic speech synthesis

    Get PDF
    International audienceDuration modeling is a key task for every parametric speech synthesis system. Though such parametric systems have been adapted to many languages, no special attention was paid to explicitly handling Arabic speech characteristics. Actually, in Arabic phoneme duration has a distinctive role, because of consonant gemination and vowel quantity. Therefore, a precise modeling of sound durations is critical. In this paper we compare several modeling of phoneme durations (including duration modeling by HTS and MERLIN toolkits), and we propose a new approach which relies on using a set of models, each one being optimal for a given phoneme class (e.g., simple consonants, geminated consonants, short vowels, and long vowels). An objective evaluation carried out on a set of test sentences shows that the proposed approach leads to a more accurate modeling of the phoneme durations

    Statistical modelling of speech units in HMM-based speech synthesis for Arabic

    Get PDF
    International audienceThis paper investigates statistical parametric speech synthesis of Modern Standard Arabic (MSA). Hidden Markov Models (HMM)-based speech synthesis system relies on a description of speech segments corresponding to phonemes, with a large set of features that represent phonetic, phonologic, linguistic and contextual aspects. When applied to MSA two specific phenomena have to be taken in account, the vowel lengthening and the consonant gemination. This paper studies thoroughly the modeling of these phenomena through various approaches: as for example, the use of different units for modeling short vs. long vowels and the use of different units for modeling simple vs. geminated consonants. These approaches are compared to another one which merges short and long variants of a vowel into a single unit and, simple and geminated variants of a consonant into a single unit (these characteristics being handled through the features associated to the sound). Results of subjective evaluation show that there is no significant difference between using the same unit for simple and geminated consonant (as well as for short and long vowels) and using different units for simple vs. geminated consonants (as well for short vs. long vowels)

    Synthèse paramétrique de la parole Arabe

    No full text
    The presented thesis deals with the adaptation of the conversion of a written text into speech using a parametric approach to the Arabic language. Different methods have been developed in order to set up synthesis systems. These methods are based on a description of the speech signal by a set of parameters. Besides, each sound is represented by a set of contextual features containing all the information affecting the pronunciation of this sound. Part of these features depend on the language and its peculiarities, so in order to adapt the parametric synthesis approach to Arabic, a study of its phonological peculiarities wasneeded. Two phenomena were identified : the gemination and the vowels quantity (short/ long). Two features associated to these phenomena have been added to the contextual features set. In the same way, different approaches have been proposed to model The geminated consonants and the long vowels of the speech units. Four combinations of modeling are possible : alternating the differentiation or fusion of simple and geminated consonants on the one hand and short and long vowels on the other hand. A set of perceptual and objective tests was conducted to evaluate the effect of the fourunit modelling approaches on the quality of the generated speech. The evaluations were made in the case of parametric synthesis by HMM then in the case of parametric synthesisby DNN. The subjective results showed that when the HMM approach is used, the four approaches produce signals with a similar quality, this result that was confirmed by the objective measures calculated to evaluate the prediction of the durations of the speech units. However, the results of objective evaluations in the case of the DNN approach have shown that the differentiation of simple consonants (respectively short vowels) geminated consonants (respectively long vowels) leads to a slightly better prediction of the durations than the other modelling approaches. On the other hand, this improvement was not perceived during the perceptive tests ; listeners found that the signals generated by the four approaches are similar in terms of overall quality. The last part of this thesis was devoted to the comparison of the synthesis approach by the HMMs to that by the DNNs.All the tests conducted have shown that the use of DNNs has improved the perceived quality of the generated signals.Cette thèse porte sur l’adaptation de la synthèse paramétrique de la parole à partir d’un texte écrit à la langue arabe. Pour ce faire, différentes méthodes ont été développées afin de mettre en place des systèmes de synthèse. Ces méthodes sont basées sur une description du signal de parole par un ensemble de paramètres acoustiques et prosodiques. De même, chaque son est représenté par un ensemble de descripteurs contextuels contenant toutes les informations affectant la prononciation de celui-ci. Une partie de ces descripteurs dépend de la langue et de ses particularités, ainsi, afin d'adapter l’approche de synthèse paramétrique à l’arabe, une étude des particularités phonologiques de l’arabe était nécessaire. L’accent a été mis sur deux phénomènes : la gémination et la longueur des voyelles (courte/longue). Deux descripteurs associés à ces deux phénomènes ont été ajoutés à l’ensemble des descripteurs contextuels. De même, différentes approches de choix des unités ont été proposées pour modéliser les consonnes géminées et les voyelles longues. Quatre combinaisons de modélisation sont possibles en alternant la différentiation ou la fusion des consonnes simples et géminées d’une part et des voyelles courtes et longues d’autres part. Un ensemble des tests perceptifs et objectifs a été conduit afin d’évaluer l’effet des quatre approches de modélisation des unités sur la qualité de la parole synthétisée. Les évaluations ont été faites dans le cas de synthèse paramétrique par HMM (Hidden Markov Model) puis dans le cas de la synthèse paramétrique par DNN. Les résultats subjectifs sont montrés que dans le cas de l’approche par HMM, les quatre approches produisent des signaux de qualité similaire, une conclusion qui a été confirmée par les mesures objectives calculées pour évaluer la prédiction des durées des unités de parole. Cependant, les résultats des évaluations objectives dans le cas de l’approche par DNN ont montré que la différentiation des consonnes simples (respectivement des voyelles courtes) des consonnes géminées (respectivement des voyelles longues) permet d’avoir une prédiction des durées légèrement meilleure qu’avec les autres des approches de modélisation. En revanche, cette amélioration n’a pas été perçue lors des tests perceptifs ; les participants ont trouvé que les signaux générés par les quatre approches sont similaires en termes de qualité globale. Une dernière partie de la thèse a été consacrée à la comparaison de l’approche de synthèse par HMM à celle par DNN. L’ensemble des tests conduits ont montré que l’utilisation des DNN a amélioré la qualité perçue des signaux générés

    Parametric synthesis of Arabic speech

    No full text
    Cette thèse porte sur l’adaptation de la synthèse paramétrique de la parole à partir d’un texte écrit à la langue arabe. Pour ce faire, différentes méthodes ont été développées afin de mettre en place des systèmes de synthèse. Ces méthodes sont basées sur une description du signal de parole par un ensemble de paramètres acoustiques et prosodiques. De même, chaque son est représenté par un ensemble de descripteurs contextuels contenant toutes les informations affectant la prononciation de celui-ci. Une partie de ces descripteurs dépend de la langue et de ses particularités, ainsi, afin d'adapter l’approche de synthèse paramétrique à l’arabe, une étude des particularités phonologiques de l’arabe était nécessaire. L’accent a été mis sur deux phénomènes : la gémination et la longueur des voyelles (courte/longue). Deux descripteurs associés à ces deux phénomènes ont été ajoutés à l’ensemble des descripteurs contextuels. De même, différentes approches de choix des unités ont été proposées pour modéliser les consonnes géminées et les voyelles longues. Quatre combinaisons de modélisation sont possibles en alternant la différentiation ou la fusion des consonnes simples et géminées d’une part et des voyelles courtes et longues d’autres part. Un ensemble des tests perceptifs et objectifs a été conduit afin d’évaluer l’effet des quatre approches de modélisation des unités sur la qualité de la parole synthétisée. Les évaluations ont été faites dans le cas de synthèse paramétrique par HMM (Hidden Markov Model) puis dans le cas de la synthèse paramétrique par DNN. Les résultats subjectifs sont montrés que dans le cas de l’approche par HMM, les quatre approches produisent des signaux de qualité similaire, une conclusion qui a été confirmée par les mesures objectives calculées pour évaluer la prédiction des durées des unités de parole. Cependant, les résultats des évaluations objectives dans le cas de l’approche par DNN ont montré que la différentiation des consonnes simples (respectivement des voyelles courtes) des consonnes géminées (respectivement des voyelles longues) permet d’avoir une prédiction des durées légèrement meilleure qu’avec les autres des approches de modélisation. En revanche, cette amélioration n’a pas été perçue lors des tests perceptifs ; les participants ont trouvé que les signaux générés par les quatre approches sont similaires en termes de qualité globale. Une dernière partie de la thèse a été consacrée à la comparaison de l’approche de synthèse par HMM à celle par DNN. L’ensemble des tests conduits ont montré que l’utilisation des DNN a amélioré la qualité perçue des signaux générés.The presented thesis deals with the adaptation of the conversion of a written text into speech using a parametric approach to the Arabic language. Different methods have been developed in order to set up synthesis systems. These methods are based on a description of the speech signal by a set of parameters. Besides, each sound is represented by a set of contextual features containing all the information affecting the pronunciation of this sound. Part of these features depend on the language and its peculiarities, so in order to adapt the parametric synthesis approach to Arabic, a study of its phonological peculiarities wasneeded. Two phenomena were identified : the gemination and the vowels quantity (short/ long). Two features associated to these phenomena have been added to the contextual features set. In the same way, different approaches have been proposed to model The geminated consonants and the long vowels of the speech units. Four combinations of modeling are possible : alternating the differentiation or fusion of simple and geminated consonants on the one hand and short and long vowels on the other hand. A set of perceptual and objective tests was conducted to evaluate the effect of the fourunit modelling approaches on the quality of the generated speech. The evaluations were made in the case of parametric synthesis by HMM then in the case of parametric synthesisby DNN. The subjective results showed that when the HMM approach is used, the four approaches produce signals with a similar quality, this result that was confirmed by the objective measures calculated to evaluate the prediction of the durations of the speech units. However, the results of objective evaluations in the case of the DNN approach have shown that the differentiation of simple consonants (respectively short vowels) geminated consonants (respectively long vowels) leads to a slightly better prediction of the durations than the other modelling approaches. On the other hand, this improvement was not perceived during the perceptive tests ; listeners found that the signals generated by the four approaches are similar in terms of overall quality. The last part of this thesis was devoted to the comparison of the synthesis approach by the HMMs to that by the DNNs.All the tests conducted have shown that the use of DNNs has improved the perceived quality of the generated signals
    corecore